JSoup এবং Web Scraping এর বাস্তব উদাহরণ

Java Technologies - জেসুপ (JSoup)

211

Web Scraping হল একটি প্রক্রিয়া যেখানে ওয়েবসাইট থেকে স্বয়ংক্রিয়ভাবে ডাটা সংগ্রহ করা হয়। JSoup একটি জনপ্রিয় Java লাইব্রেরি যা HTML পার্সিং এবং DOM (Document Object Model) ম্যানিপুলেশনের জন্য ব্যবহৃত হয়। এটি ওয়েব স্ক্র্যাপিংয়ের জন্য অত্যন্ত কার্যকরী কারণ এটি HTML ডকুমেন্ট থেকে ডাটা এক্সট্র্যাক্ট করা সহজ করে তোলে। এই উদাহরণে আমরা দেখাবো কীভাবে JSoup ব্যবহার করে একটি ওয়েব পেজ থেকে তথ্য সংগ্রহ করা যায়।

1. Web Scraping এর জন্য JSoup সেটআপ

প্রথমে JSoup এর JAR ফাইল ডাউনলোড করে বা Maven ডিপেনডেন্সি ব্যবহার করে আপনার প্রোজেক্টে যুক্ত করুন।

Maven ডিপেনডেন্সি:

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.15.4</version> <!-- সর্বশেষ সংস্করণ দিয়ে প্রতিস্থাপন করুন -->
</dependency>

এটি আপনার পোম ফাইলে যুক্ত করার মাধ্যমে JSoup আপনার প্রোজেক্টে ইনস্টল হয়ে যাবে।

2. একটি ওয়েব পেজ থেকে তথ্য সংগ্রহ করা

ধরা যাক, আমরা একটি ওয়েব পেজ থেকে খবরের শিরোনাম (headlines) সংগ্রহ করতে চাই। আমরা JSoup ব্যবহার করে সেই পেজটি পার্স করব এবং খবরের শিরোনামগুলো এক্সট্র্যাক্ট করব।

উদাহরণ কোড:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class WebScrapingExample {
    public static void main(String[] args) {
        try {
            // ওয়েব পেজ থেকে HTML ডাউনলোড করা
            String url = "https://www.example-news-website.com";  // আপনার ওয়েবসাইটের URL দিন
            Document doc = Jsoup.connect(url).get();

            // CSS সিলেক্টর ব্যবহার করে শিরোনামগুলো সিলেক্ট করা
            Elements headlines = doc.select(".headline");  // এখানে '.headline' আপনার টার্গেট CSS ক্লাস হবে

            // শিরোনামগুলো প্রিন্ট করা
            for (Element headline : headlines) {
                System.out.println("Headline: " + headline.text());
            }
        } catch (IOException e) {
            System.out.println("Error occurred: " + e.getMessage());
        }
    }
}

এই কোডটি একটি ওয়েব পেজ থেকে HTML ডাউনলোড করে, .headline ক্লাসের সব এলিমেন্ট সিলেক্ট করে এবং তাদের টেক্সট প্রিন্ট করে। এখানে URL এবং CSS সিলেক্টর আপনার টার্গেট পেজের উপর নির্ভর করবে।

3. নির্দিষ্ট উপাদান থেকে ডাটা এক্সট্র্যাক্ট করা

ধরা যাক, আপনি একটি ওয়েব পেজ থেকে নিউজের শিরোনাম ছাড়াও পত্রিকার প্রকাশনার তারিখও সংগ্রহ করতে চান। আপনি নির্দিষ্ট এলিমেন্টের ভিতরে থাকা ডাটা এক্সট্র্যাক্ট করতে পারেন।

উদাহরণ কোড:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class WebScrapingExample {
    public static void main(String[] args) {
        try {
            // ওয়েব পেজ থেকে HTML ডাউনলোড করা
            String url = "https://www.example-news-website.com";  // আপনার ওয়েবসাইটের URL দিন
            Document doc = Jsoup.connect(url).get();

            // শিরোনাম এবং প্রকাশনার তারিখ সিলেক্ট করা
            Elements headlines = doc.select(".headline");
            Elements dates = doc.select(".publish-date");

            // শিরোনাম এবং তারিখ প্রিন্ট করা
            for (int i = 0; i < headlines.size(); i++) {
                String headline = headlines.get(i).text();
                String date = dates.get(i).text();
                System.out.println("Headline: " + headline + " | Published on: " + date);
            }
        } catch (IOException e) {
            System.out.println("Error occurred: " + e.getMessage());
        }
    }
}

এখানে, .headline এবং .publish-date দুটি CSS সিলেক্টর ব্যবহার করে আপনি শিরোনাম এবং প্রকাশনার তারিখ একসাথে প্রিন্ট করতে পারবেন।

4. Pagination এর মাধ্যমে ওয়েব স্ক্র্যাপিং

অনেক ওয়েবসাইটে পেজিনেশন থাকে, যেখানে তথ্য একাধিক পেজে ভাগ করা থাকে। JSoup ব্যবহার করে আপনি একাধিক পেজ স্ক্র্যাপ করতে পারেন। এজন্য আপনি পেজের URL ডাইনামিকভাবে তৈরি করে একাধিক পেজ থেকে ডাটা সংগ্রহ করতে পারবেন।

উদাহরণ কোড:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

import java.io.IOException;

public class WebScrapingPaginationExample {
    public static void main(String[] args) {
        try {
            // একাধিক পেজ স্ক্র্যাপ করার জন্য লুপ চালানো
            for (int page = 1; page <= 5; page++) {  // 5 পেজের জন্য স্ক্র্যাপিং
                String url = "https://www.example-news-website.com/page=" + page;
                Document doc = Jsoup.connect(url).get();

                // শিরোনাম সিলেক্ট করা
                Elements headlines = doc.select(".headline");
                
                // শিরোনাম প্রিন্ট করা
                for (Element headline : headlines) {
                    System.out.println("Page " + page + " - Headline: " + headline.text());
                }
            }
        } catch (IOException e) {
            System.out.println("Error occurred: " + e.getMessage());
        }
    }
}

এখানে, আপনি for লুপ ব্যবহার করে পেজ নম্বর পরিবর্তন করে একাধিক পেজ থেকে শিরোনাম সংগ্রহ করছেন।

5. Error Handling এবং Timeout

কখনো কখনো ওয়েব পেজ থেকে ডাটা স্ক্র্যাপ করার সময় নেটওয়ার্ক সমস্যা বা সময়সীমার (timeout) কারণে সমস্যা হতে পারে। JSoup তে timeout() মেথড ব্যবহার করে আপনি রিকোয়েস্টের জন্য সময়সীমা নির্ধারণ করতে পারেন এবং এর মাধ্যমে error handling করতে পারেন।

উদাহরণ কোড:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;

public class WebScrapingWithTimeout {
    public static void main(String[] args) {
        try {
            // Timeout নির্ধারণ করা
            Document doc = Jsoup.connect("https://www.example-news-website.com")
                                .timeout(5000) // 5 সেকেন্ডে timeout
                                .get();

            // ডাটা এক্সট্র্যাক্ট করা
            System.out.println(doc.title());
        } catch (IOException e) {
            System.out.println("Error occurred: " + e.getMessage());
        }
    }
}

এখানে timeout(5000) ব্যবহার করা হয়েছে, যা ৫ সেকেন্ডের মধ্যে সার্ভার থেকে রেসপন্স না পেলে Exception ফেলে দিবে।

সারাংশ

JSoup ব্যবহার করে ওয়েব স্ক্র্যাপিং খুবই সহজ এবং কার্যকরী। এটি HTML ডকুমেন্ট পার্স করে, প্রয়োজনীয় তথ্য সিলেক্ট করে এবং তা ব্যবহারকারীর কাছে প্রদান করতে সাহায্য করে। আপনি CSS সিলেক্টর, pagination, এবং error handling ব্যবহার করে আপনার স্ক্র্যাপিং প্রক্রিয়াকে আরও শক্তিশালী এবং নির্ভরযোগ্য করতে পারেন। JSoup এর সাথে Spring Framework বা অন্যান্য Java টুল ইন্টিগ্রেট করেও আরও শক্তিশালী ওয়েব স্ক্র্যাপিং সিস্টেম তৈরি করা সম্ভব।

Content added By

Md Zahid Hasan

Product Data Scraping এর জন্য JSoup ব্যবহার

217

ওয়েব স্ক্র্যাপিং (Web Scraping) হল একটি প্রক্রিয়া যার মাধ্যমে ওয়েবসাইট থেকে স্বয়ংক্রিয়ভাবে তথ্য এক্সট্র্যাক্ট করা হয়। JSoup হল একটি জনপ্রিয় Java লাইব্রেরি যা HTML ডকুমেন্ট পার্সিং এবং ওয়েব স্ক্র্যাপিংয়ের জন্য ব্যবহৃত হয়। প্রোডাক্ট ডেটা স্ক্র্যাপিং, বিশেষ করে ই-কমার্স ওয়েবসাইট থেকে প্রোডাক্ট সম্পর্কিত তথ্য সংগ্রহ করার জন্য JSoup খুবই কার্যকরী।

এখানে আমরা দেখব কিভাবে JSoup ব্যবহার করে ই-কমার্স ওয়েবসাইট থেকে প্রোডাক্ট ডেটা স্ক্র্যাপ করা যায়, যেমন প্রোডাক্টের নাম, দাম, বিবরণ, রেটিং ইত্যাদি।

JSoup দিয়ে প্রোডাক্ট ডেটা স্ক্র্যাপিং

ধরা যাক, আমাদের একটি ই-কমার্স ওয়েবসাইট থেকে প্রোডাক্টের নাম, দাম, বিবরণ এবং রেটিং স্ক্র্যাপ করতে হবে। প্রথমে JSoup দিয়ে HTML ডকুমেন্ট পার্স করবো এবং তারপর প্রোডাক্টের বিভিন্ন তথ্য এক্সট্র্যাক্ট করবো।

উদাহরণ: HTML থেকে প্রোডাক্ট ডেটা এক্সট্র্যাক্ট করা

ধরি, আমাদের HTML পেজের কাঠামো এরকম:

<html>
<head><title>Product List</title></head>
<body>
    <div class="product">
        <h2 class="product-name">Wireless Mouse</h2>
        <span class="price">$25.99</span>
        <p class="description">A smooth and responsive wireless mouse with ergonomic design.</p>
        <span class="rating">4.5 stars</span>
    </div>
    <div class="product">
        <h2 class="product-name">Bluetooth Keyboard</h2>
        <span class="price">$45.99</span>
        <p class="description">A compact Bluetooth keyboard with great typing experience.</p>
        <span class="rating">4.7 stars</span>
    </div>
</body>
</html>

এখন আমরা এই HTML থেকে প্রোডাক্টের নাম, দাম, বিবরণ, এবং রেটিং এক্সট্র্যাক্ট করবো।

JSoup ব্যবহার করে প্রোডাক্ট ডেটা স্ক্র্যাপিং কোড

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class ProductScraping {
    public static void main(String[] args) throws Exception {
        // HTML ডকুমেন্ট
        String html = "<html><head><title>Product List</title></head><body>" +
                      "<div class='product'>" +
                      "<h2 class='product-name'>Wireless Mouse</h2>" +
                      "<span class='price'>$25.99</span>" +
                      "<p class='description'>A smooth and responsive wireless mouse with ergonomic design.</p>" +
                      "<span class='rating'>4.5 stars</span>" +
                      "</div>" +
                      "<div class='product'>" +
                      "<h2 class='product-name'>Bluetooth Keyboard</h2>" +
                      "<span class='price'>$45.99</span>" +
                      "<p class='description'>A compact Bluetooth keyboard with great typing experience.</p>" +
                      "<span class='rating'>4.7 stars</span>" +
                      "</div>" +
                      "</body></html>";
        
        // HTML পার্সিং
        Document doc = Jsoup.parse(html);
        
        // প্রোডাক্টের ডেটা নির্বাচন
        Elements products = doc.select(".product");

        // প্রতিটি প্রোডাক্টের তথ্য এক্সট্র্যাক্ট করা
        for (Element product : products) {
            String name = product.select(".product-name").text();
            String price = product.select(".price").text();
            String description = product.select(".description").text();
            String rating = product.select(".rating").text();

            // প্রিন্ট করা
            System.out.println("Product Name: " + name);
            System.out.println("Price: " + price);
            System.out.println("Description: " + description);
            System.out.println("Rating: " + rating);
            System.out.println("--------------------------");
        }
    }
}

কোড ব্যাখ্যা:

HTML ডকুমেন্ট পার্স করা: Jsoup.parse() মেথড দিয়ে HTML ডকুমেন্ট পার্স করা হয়েছে।
select() মেথড ব্যবহার: select() মেথড ব্যবহার করে .product ক্লাসের মধ্যে থাকা প্রতিটি প্রোডাক্টের উপাদান (যেমন নাম, দাম, বিবরণ, রেটিং) এক্সট্র্যাক্ট করা হয়েছে।
ডেটা এক্সট্র্যাক্ট করা: product.select(".product-name").text() এর মাধ্যমে প্রোডাক্টের নাম, product.select(".price").text() দিয়ে দাম, product.select(".description").text() দিয়ে বিবরণ এবং product.select(".rating").text() দিয়ে রেটিং এক্সট্র্যাক্ট করা হয়েছে।

প্রোডাক্ট ডেটা স্ক্র্যাপিংয়ের কিছু গুরুত্বপূর্ন টিপস

১. সঠিক CSS সিলেক্টর ব্যবহার

JSoup এর select() মেথডে CSS সিলেক্টর ব্যবহার করে উপাদান নির্বাচন করতে হয়। CSS সিলেক্টরের মাধ্যমে আপনি খুব সহজেই HTML ডকুমেন্টের নির্দিষ্ট ট্যাগ, ক্লাস, আইডি বা অ্যাট্রিবিউটের ভিত্তিতে ডেটা এক্সট্র্যাক্ট করতে পারেন।

২. ওয়েবসাইটের রোবটস.txt ফাইল চেক করা

স্ক্র্যাপিং করার আগে ওয়েবসাইটের robots.txt ফাইলটি চেক করুন। এটি ওয়েবসাইটের স্ক্র্যাপিং নীতি নির্দেশ করে এবং এটি লঙ্ঘন করা উচিত নয়।

৩. স্লো স্ক্র্যাপিং

আপনার স্ক্র্যাপিং কোডের মধ্যে বিলম্ব (delay) দিন যাতে ওয়েবসাইটের সার্ভারে অতিরিক্ত চাপ না পড়ে। এই কাজের জন্য Thread.sleep() ব্যবহার করা যেতে পারে।

৪. ডেটার ফরম্যাটিং

ডেটা এক্সট্র্যাক্ট করার পর সঠিক ফরম্যাটে সেটি সাজান। যেমন দাম হিসেবে সংখ্যা ও মুদ্রার সিম্বল ঠিকভাবে সেট করা।

সারাংশ

জেসুপ (JSoup) একটি শক্তিশালী Java লাইব্রেরি যা HTML ডকুমেন্ট পার্সিং এবং ওয়েব স্ক্র্যাপিংয়ের জন্য ব্যবহৃত হয়। প্রোডাক্ট ডেটা স্ক্র্যাপিংয়ের জন্য JSoup ব্যবহার করলে আপনি সহজেই HTML ডকুমেন্ট থেকে প্রোডাক্টের নাম, দাম, বিবরণ, রেটিং ইত্যাদি এক্সট্র্যাক্ট করতে পারবেন। সঠিক CSS সিলেক্টর এবং স্ক্র্যাপিং কৌশল ব্যবহার করলে ওয়েব স্ক্র্যাপিং আরও কার্যকরী এবং নির্ভরযোগ্য হতে পারে।

Content added By

Md Zahid Hasan

Job Listing Data Extraction

189

JSoup is a powerful Java library that allows you to extract data from HTML pages. It is particularly useful for scraping job listings from websites. In this section, we will discuss how you can use JSoup to extract job listing data from an HTML page, including job titles, company names, locations, and job descriptions.

Steps for Job Listing Data Extraction

1. Analyze the HTML Structure

Before starting, you need to examine the HTML structure of the job listings page to identify the HTML tags and classes used for job titles, company names, locations, etc. This can be done using browser developer tools (e.g., right-click and inspect the page).

2. Setup JSoup for Parsing the HTML

Once you know the HTML structure, you can use JSoup to parse the HTML page and extract the required data. Typically, the structure will consist of a list of job entries, where each job will have details like the title, company name, location, and a link to the full description.

Example: Extracting Job Listings Data

Suppose we have a job listings page with HTML similar to the following structure:

<html>
  <body>
    <div class="job-listing">
      <div class="job-item">
        <h2 class="job-title">Software Engineer</h2>
        <p class="company-name">Tech Corp</p>
        <p class="job-location">New York, NY</p>
        <a href="job-link1" class="job-link">View Details</a>
      </div>
      <div class="job-item">
        <h2 class="job-title">Data Scientist</h2>
        <p class="company-name">Data Solutions</p>
        <p class="job-location">San Francisco, CA</p>
        <a href="job-link2" class="job-link">View Details</a>
      </div>
    </div>
  </body>
</html>

You can use the following JSoup code to extract job title, company, location, and job link:

3. Java Code for Data Extraction

Example Code:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class JobListingExtractor {

    public static void main(String[] args) {
        try {
            // URL of the job listing page (replace with the actual URL)
            String url = "https://example.com/job-listings";
            
            // Fetch the HTML from the URL
            Document doc = Jsoup.connect(url).get();
            
            // Select all job listing items
            Elements jobListings = doc.select(".job-item");
            
            // Loop through each job item and extract data
            for (Element job : jobListings) {
                String jobTitle = job.select(".job-title").text();
                String companyName = job.select(".company-name").text();
                String jobLocation = job.select(".job-location").text();
                String jobLink = job.select(".job-link").attr("href");
                
                // Print the extracted data
                System.out.println("Job Title: " + jobTitle);
                System.out.println("Company: " + companyName);
                System.out.println("Location: " + jobLocation);
                System.out.println("Job Link: " + jobLink);
                System.out.println("-----------------------------");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

Explanation:

Connecting to the URL: Jsoup.connect(url).get() fetches the HTML content from the provided job listings URL.
Selecting Job Listings: The doc.select(".job-item") method selects all elements with the class job-item, which represents individual job listings.
Extracting Data: For each job listing, we extract:
- Job Title: .select(".job-title").text() extracts the text content from the job title element.
- Company Name: .select(".company-name").text() extracts the text content of the company name.
- Job Location: .select(".job-location").text() extracts the text content of the job location.
- Job Link: .select(".job-link").attr("href") extracts the href attribute, which contains the link to the job details page.
Displaying the Data: Each extracted job data (title, company, location, and link) is printed.

Handling Pagination

Many job listing websites have multiple pages of job listings. To handle pagination, you can follow a similar approach and loop through multiple pages using JSoup.

Example for Pagination Handling:

public class JobListingExtractor {

    public static void main(String[] args) {
        try {
            // Starting page URL (replace with actual URL)
            String baseUrl = "https://example.com/job-listings?page=";
            
            // Loop through multiple pages (adjust the number of pages as needed)
            for (int page = 1; page <= 5; page++) {
                String url = baseUrl + page;
                Document doc = Jsoup.connect(url).get();
                Elements jobListings = doc.select(".job-item");

                for (Element job : jobListings) {
                    String jobTitle = job.select(".job-title").text();
                    String companyName = job.select(".company-name").text();
                    String jobLocation = job.select(".job-location").text();
                    String jobLink = job.select(".job-link").attr("href");

                    // Print the extracted data
                    System.out.println("Job Title: " + jobTitle);
                    System.out.println("Company: " + companyName);
                    System.out.println("Location: " + jobLocation);
                    System.out.println("Job Link: " + jobLink);
                    System.out.println("-----------------------------");
                }
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

In this case, the code loops through multiple pages by appending the page number to the URL. You can modify the loop range depending on how many pages you want to scrape.

Handling Different HTML Structures

If the HTML structure is different for each website, you may need to adjust the select() queries. The key to successful data extraction lies in identifying the correct CSS selectors (classes, ids, tags) that correspond to the data you want to scrape.

Conclusion

JSoup is an effective and simple library for extracting job listing data from HTML pages. By understanding the structure of the page and using the correct selectors, you can easily extract job titles, company names, locations, and links. Additionally, handling pagination is crucial when dealing with job listings spread across multiple pages.

Content added By

Md Zahid Hasan

News Websites থেকে Data Extraction

153

JSoup হল একটি শক্তিশালী লাইব্রেরি যা HTML ডকুমেন্ট ম্যানিপুলেশন এবং ডেটা এক্সট্র্যাকশনের জন্য ব্যবহৃত হয়। ওয়েব স্ক্র্যাপিং-এর মাধ্যমে আপনি নিউজ ওয়েবসাইট থেকে বিভিন্ন ধরনের ডেটা যেমন শিরোনাম, প্যারাগ্রাফ, তারিখ, ছবি ইত্যাদি এক্সট্র্যাক্ট করতে পারেন। JSoup এর মাধ্যমে HTML ডকুমেন্ট পার্সিং সহজ এবং দ্রুত, যা আপনাকে বিভিন্ন নিউজ ওয়েবসাইটের তথ্য সংগ্রহে সাহায্য করে।

নিচে JSoup ব্যবহার করে নিউজ ওয়েবসাইট থেকে ডেটা এক্সট্র্যাক্ট করার একটি উদাহরণ দেওয়া হলো।

JSoup দিয়ে News Website থেকে Data Extraction

১. HTML Structure বুঝে নেওয়া

প্রথমে, আপনি যে নিউজ ওয়েবসাইট থেকে ডেটা এক্সট্র্যাক্ট করতে চান তার HTML স্ট্রাকচার বুঝে নিতে হবে। এজন্য আপনি ব্রাউজারের Developer Tools ব্যবহার করে সঠিক ট্যাগ এবং ক্লাস/আইডি নির্ধারণ করতে পারেন যা নিউজ কনটেন্ট ধারণ করে।

ধরা যাক, আপনার লক্ষ্য নিউজ ওয়েবসাইটের শিরোনাম (headline) এবং প্রথম প্যারাগ্রাফ (paragraph) এক্সট্র্যাক্ট করা।

২. JSoup দিয়ে HTML ডকুমেন্ট পার্স করা

ধরা যাক, একটি সাধারণ নিউজ ওয়েবসাইটের HTML স্ট্রাকচার নিম্নরূপ:

<html>
    <body>
        <div class="news-article">
            <h1 class="headline">Breaking News: Major Event Occurs</h1>
            <p class="lead">This is the first paragraph of the article.</p>
            <p class="content">Here is the full article content...</p>
        </div>
    </body>
</html>

৩. JSoup কোড উদাহরণ

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class NewsScraper {
    public static void main(String[] args) throws Exception {
        // ওয়েব পেজের URL
        String url = "https://example.com/news-article";  // এখানে আপনার নিউজ ওয়েবসাইটের URL দিবেন
        
        // JSoup দিয়ে HTML ডকুমেন্ট পার্স করা
        Document doc = Jsoup.connect(url).get();
        
        // হেডলাইন এক্সট্র্যাক্ট করা
        Element headline = doc.select("h1.headline").first();
        System.out.println("Headline: " + headline.text());  // Output: Breaking News: Major Event Occurs
        
        // প্রথম প্যারাগ্রাফ এক্সট্র্যাক্ট করা
        Element leadParagraph = doc.select("p.lead").first();
        System.out.println("Lead Paragraph: " + leadParagraph.text());  // Output: This is the first paragraph of the article.
    }
}

৪. কোড ব্যাখ্যা

Jsoup.connect(url).get(); - এই লাইনটি JSoup ব্যবহার করে নির্দিষ্ট URL থেকে HTML ডকুমেন্ট ডাউনলোড এবং পার্স করে।
doc.select("h1.headline").first(); - এই লাইনটি <h1> ট্যাগের মধ্যে headline ক্লাসের প্রথম উপাদানটি নির্বাচন করে।
doc.select("p.lead").first(); - এই লাইনটি <p> ট্যাগের মধ্যে lead ক্লাসের প্রথম প্যারাগ্রাফটি নির্বাচন করে।

অন্যান্য Data Extraction

আপনি JSoup দিয়ে নিউজ ওয়েবসাইট থেকে আরও অনেক ধরনের তথ্য এক্সট্র্যাক্ট করতে পারেন যেমন তারিখ, লেখক, ছবি, লিঙ্ক ইত্যাদি। নিচে আরও কিছু উদাহরণ দেওয়া হলো।

১. নিউজের তারিখ এবং লেখক এক্সট্র্যাক্ট করা

ধরা যাক, নিউজ ওয়েবসাইটের HTML এ তারিখ এবং লেখকের তথ্য নিচের মতো রয়েছে:

<p class="date">December 23, 2024</p>
<p class="author">By John Doe</p>

এক্ষেত্রে, এই তথ্য এক্সট্র্যাক্ট করার জন্য কোড হবে:

Element date = doc.select("p.date").first();
Element author = doc.select("p.author").first();

System.out.println("Date: " + date.text());  // Output: December 23, 2024
System.out.println("Author: " + author.text());  // Output: By John Doe

২. ছবির URL এক্সট্র্যাক্ট করা

নিউজ ওয়েবসাইটে একটি ছবি যদি <img> ট্যাগে থাকে এবং তার src অ্যাট্রিবিউটের মধ্যে ছবি সংরক্ষিত থাকে, তাহলে সেটি এক্সট্র্যাক্ট করা যায়:

<img class="article-image" src="https://example.com/image.jpg" alt="News Image">

এক্ষেত্রে ছবির URL এক্সট্র্যাক্ট করতে JSoup কোড হবে:

Element image = doc.select("img.article-image").first();
String imageUrl = image.attr("src");
System.out.println("Image URL: " + imageUrl);  // Output: https://example.com/image.jpg

ওয়েব স্ক্র্যাপিংয়ের জন্য কিছু টিপস

ক্লাস এবং আইডি সঠিকভাবে নির্বাচন করুন: HTML ডকুমেন্টের স্ট্রাকচার বুঝে সঠিক CSS সিলেক্টর ব্যবহার করুন।
Error Handling: কিছু ওয়েবসাইটে HTML সঠিকভাবে স্ট্রাকচারড নাও হতে পারে, সেক্ষেত্রে উপযুক্ত error handling ব্যবহার করুন।
Rate Limiting: ওয়েব স্ক্র্যাপিং করার সময় অনেকগুলি রিকোয়েস্ট পাঠানো হতে পারে, তাই ওয়েবসাইটের সার্ভারে চাপ না পড়ার জন্য স্লো বা থ্রোটলিং ব্যবহার করুন।
Legal Considerations: ওয়েব স্ক্র্যাপিং করার আগে ওয়েবসাইটের টার্মস এবং কন্ডিশন চেক করে দেখুন। কিছু ওয়েবসাইটে স্ক্র্যাপিং নিষিদ্ধ থাকতে পারে।

সারাংশ

JSoup একটি শক্তিশালী টুল যা HTML ডকুমেন্ট পার্সিং এবং ডেটা এক্সট্র্যাক্ট করার জন্য ব্যবহৃত হয়। আপনি JSoup দিয়ে নিউজ ওয়েবসাইট থেকে সহজেই বিভিন্ন তথ্য যেমন শিরোনাম, প্যারাগ্রাফ, তারিখ, লেখক, ছবি ইত্যাদি এক্সট্র্যাক্ট করতে পারেন। তবে, ওয়েব স্ক্র্যাপিং করার সময় ওয়েবসাইটের HTML স্ট্রাকচার, error handling এবং legal concerns সম্পর্কে সচেতন থাকা উচিত।

Content added By

Md Zahid Hasan

Practical উদাহরণ: Real-life Web Scraping Project

225

জেসুপ (JSoup) ব্যবহার করে ওয়েব স্ক্র্যাপিং একটি জনপ্রিয় প্রক্রিয়া, যেখানে আপনি ওয়েব পেজ থেকে ডাটা এক্সট্র্যাক্ট করেন। ওয়েব স্ক্র্যাপিং প্রকল্পগুলো সাধারণত ডেটা সংগ্রহের জন্য ব্যবহৃত হয়, যেমন প্রোডাক্টের দাম, খবর, বা কোনো নির্দিষ্ট সাইটের অন্যান্য তথ্য। এখানে আমরা একটি বাস্তব জীবন উদাহরণ দেখবো, যেখানে JSoup দিয়ে একটি ওয়েবসাইট থেকে প্রোডাক্টের ডাটা স্ক্র্যাপ করা হবে।

প্রকল্পের উদ্দেশ্য

ধরা যাক, আমাদের উদ্দেশ্য হলো একটি ই-কমার্স ওয়েবসাইট থেকে প্রোডাক্টের নাম, দাম, এবং প্রোডাক্টের বিবরণ এক্সট্র্যাক্ট করা। আমরা এই তথ্যগুলো একটি CSV ফাইলে সেভ করবো।

উদাহরণ ওয়েবসাইট: "ExampleStore.com"

ধরা যাক, "ExampleStore.com" ওয়েবসাইটে বিভিন্ন প্রোডাক্টের তথ্য রয়েছে এবং আমরা তাদের প্রোডাক্ট নাম, দাম এবং বিবরণ এক্সট্র্যাক্ট করতে চাই।

প্রোজেক্টের ধাপসমূহ

১. ওয়েবসাইট থেকে HTML ডাটা সংগ্রহ

প্রথমে আমরা JSoup ব্যবহার করে ওয়েবসাইটের HTML ডকুমেন্ট সংগ্রহ করব। এর পরে, JSoup এর মাধ্যমে প্রোডাক্টের নাম, দাম, এবং বিবরণ এক্সট্র্যাক্ট করব।

২. প্রোডাক্টের তথ্য সংগ্রহ

আমরা প্রোডাক্টের তথ্য সংগ্রহ করার জন্য সঠিক সিলেক্টর ব্যবহার করবো, যেমন div.product-name, span.product-price, এবং div.product-description।

৩. CSV ফাইলে ডাটা সেভ করা

এক্সট্র্যাক্ট করা ডাটাগুলো একটি CSV ফাইলে সেভ করা হবে।

বাস্তব উদাহরণ: ওয়েব স্ক্র্যাপিং কোড

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;

public class WebScrapingExample {
    public static void main(String[] args) throws Exception {
        // ওয়েব পেজ থেকে HTML ডকুমেন্ট ফেচ করা
        String url = "https://www.examplestore.com/products";
        Document doc = Jsoup.connect(url).get();
        
        // প্রোডাক্টের সমস্ত ইনফরমেশন এক্সট্র্যাক্ট করা
        Elements products = doc.select("div.product");
        
        // CSV ফাইল তৈরি
        BufferedWriter writer = new BufferedWriter(new FileWriter("products.csv"));
        writer.write("Product Name, Price, Description\n");

        // প্রতিটি প্রোডাক্টের তথ্য বের করা
        for (Element product : products) {
            String productName = product.select("div.product-name").text();
            String price = product.select("span.product-price").text();
            String description = product.select("div.product-description").text();

            // এক্সট্র্যাক্ট করা তথ্য CSV ফাইলে লেখা
            writer.write(productName + ", " + price + ", " + description + "\n");
        }
        
        // ফাইল বন্ধ করা
        writer.close();
        
        System.out.println("Data scraping completed and saved to products.csv");
    }
}

কোড বিশ্লেষণ:

HTML ডকুমেন্ট ফেচ করা:
- Jsoup.connect(url).get(); এর মাধ্যমে ওয়েব পেজের HTML ডকুমেন্ট সংগ্রহ করা হয়েছে।
প্রোডাক্টের তথ্য এক্সট্র্যাক্ট করা:
- doc.select("div.product"); এর মাধ্যমে সমস্ত প্রোডাক্টের ডাটা এক্সট্র্যাক্ট করা হয়েছে।
- এরপর, select() মেথড ব্যবহার করে প্রতিটি প্রোডাক্টের নাম, দাম এবং বিবরণ এক্সট্র্যাক্ট করা হয়েছে।
CSV ফাইলে ডাটা সেভ করা:
- BufferedWriter ব্যবহার করে প্রাপ্ত ডাটা একটি CSV ফাইলে সেভ করা হয়েছে।
ফাইল ক্লোজ করা:
- writer.close(); দিয়ে ফাইলটি বন্ধ করা হয়েছে।

আউটপুট: CSV ফাইল

এই কোড চালানোর পর products.csv নামক একটি ফাইল তৈরি হবে যা দেখতে এরকম হতে পারে:

Product Name, Price, Description
Product 1, $99.99, This is a description of product 1.
Product 2, $149.99, This is a description of product 2.
Product 3, $79.99, This is a description of product 3.
...

কিছু গুরুত্বপূর্ণ বিষয়

HTML সিলেক্টর:
- div.product, div.product-name, span.product-price ইত্যাদি সিলেক্টরগুলি সম্পূর্ণভাবে ওয়েবসাইটের HTML স্ট্রাকচার অনুসারে পরিবর্তিত হতে পারে, তাই সিলেক্টরগুলি আপনার ওয়েবসাইটের অনুযায়ী ঠিক করতে হবে।
অবৈধ ওয়েব স্ক্র্যাপিং:
- অনেক ওয়েবসাইটে স্ক্র্যাপিং নিষিদ্ধ হতে পারে। স্ক্র্যাপিং করার আগে ওয়েবসাইটের টার্মস অফ সার্ভিস চেক করা জরুরি। আপনার স্ক্র্যাপিং কোড যেন ওয়েবসাইটের সার্ভিসের সাথে বিরোধী না হয়, তা নিশ্চিত করতে হবে।
ডাটা ক্লিনিং:
- এক্সট্র্যাক্ট করা ডাটাতে মাঝে মাঝে অপ্রয়োজনীয় স্পেস বা অস্বচ্ছ টেক্সট থাকতে পারে। এসব ডাটা সঠিকভাবে ক্লিন করা প্রয়োজন।

সারাংশ

JSoup দিয়ে ওয়েব স্ক্র্যাপিং একটি শক্তিশালী টুল হতে পারে যখন আপনি কোনো ওয়েবসাইট থেকে নির্দিষ্ট তথ্য এক্সট্র্যাক্ট করতে চান। বাস্তব জীবনে ওয়েব স্ক্র্যাপিংয়ের প্রকল্পে JSoup ব্যবহার করে HTML ডকুমেন্ট পার্স করা, ডাটা এক্সট্র্যাক্ট করা এবং CSV বা অন্য কোনো ফর্ম্যাটে সেভ করা সম্ভব। উপরের উদাহরণটি একটি সাধারণ ওয়েব স্ক্র্যাপিং প্রকল্পের ধারণা দেয় যা আপনাকে আপনার প্রকল্পে সহায়তা করতে পারে।

Content added By

Md Zahid Hasan

JSoup এর পরিচিতি JSoup সেটআপ এবং ইন্সটলেশন HTML ডকুমেন্ট পার্সিং DOM ট্রাভার্সাল এবং নেভিগেশন CSS Selectors এবং Elements Extraction

JSoup এবং Web Scraping এর বাস্তব উদাহরণ

1. Web Scraping এর জন্য JSoup সেটআপ

2. একটি ওয়েব পেজ থেকে তথ্য সংগ্রহ করা

উদাহরণ কোড:

3. নির্দিষ্ট উপাদান থেকে ডাটা এক্সট্র্যাক্ট করা

উদাহরণ কোড:

4. Pagination এর মাধ্যমে ওয়েব স্ক্র্যাপিং

উদাহরণ কোড:

5. Error Handling এবং Timeout

উদাহরণ কোড:

সারাংশ

Product Data Scraping এর জন্য JSoup ব্যবহার

JSoup দিয়ে প্রোডাক্ট ডেটা স্ক্র্যাপিং

উদাহরণ: HTML থেকে প্রোডাক্ট ডেটা এক্সট্র্যাক্ট করা

JSoup ব্যবহার করে প্রোডাক্ট ডেটা স্ক্র্যাপিং কোড

কোড ব্যাখ্যা:

প্রোডাক্ট ডেটা স্ক্র্যাপিংয়ের কিছু গুরুত্বপূর্ন টিপস

১. সঠিক CSS সিলেক্টর ব্যবহার

২. ওয়েবসাইটের রোবটস.txt ফাইল চেক করা

৩. স্লো স্ক্র্যাপিং

৪. ডেটার ফরম্যাটিং

সারাংশ

Job Listing Data Extraction

Steps for Job Listing Data Extraction

1. Analyze the HTML Structure

2. Setup JSoup for Parsing the HTML

Example: Extracting Job Listings Data

3. Java Code for Data Extraction

Example Code:

Explanation:

Handling Pagination

Example for Pagination Handling:

Handling Different HTML Structures

Conclusion

News Websites থেকে Data Extraction

JSoup দিয়ে News Website থেকে Data Extraction

১. HTML Structure বুঝে নেওয়া

২. JSoup দিয়ে HTML ডকুমেন্ট পার্স করা

৩. JSoup কোড উদাহরণ

৪. কোড ব্যাখ্যা

অন্যান্য Data Extraction

১. নিউজের তারিখ এবং লেখক এক্সট্র্যাক্ট করা

২. ছবির URL এক্সট্র্যাক্ট করা

ওয়েব স্ক্র্যাপিংয়ের জন্য কিছু টিপস

সারাংশ

Practical উদাহরণ: Real-life Web Scraping Project

প্রকল্পের উদ্দেশ্য

উদাহরণ ওয়েবসাইট: "ExampleStore.com"

প্রোজেক্টের ধাপসমূহ

১. ওয়েবসাইট থেকে HTML ডাটা সংগ্রহ

২. প্রোডাক্টের তথ্য সংগ্রহ

৩. CSV ফাইলে ডাটা সেভ করা

বাস্তব উদাহরণ: ওয়েব স্ক্র্যাপিং কোড

কোড বিশ্লেষণ:

আউটপুট: CSV ফাইল

কিছু গুরুত্বপূর্ণ বিষয়

সারাংশ

All Notifications

Promotion

Satt AI

Hi, আমি SATT AI!